智能论文笔记

Location-aware Adaptive Denormalization: A Deep Learning Approach For Wildfire Danger Forecasting

Mohamad Hakam Shams Eddin , Ribana Roscher , Juergen Gall

分类：计算机视觉

2022-12-16

Climate change is expected to intensify and increase extreme events in the weather cycle. Since this has a significant impact on various sectors of our life, recent works are concerned with identifying and predicting such extreme events from Earth observations. This paper proposes a 2D/3D two-branch convolutional neural network (CNN) for wildfire danger forecasting. To use a unified framework, previous approaches duplicate static variables along the time dimension and neglect the intrinsic differences between static and dynamic variables. Furthermore, most existing multi-branch architectures lose the interconnections between the branches during the feature learning stage. To address these issues, we propose a two-branch architecture with a Location-aware Adaptive Denormalization layer (LOADE). Using LOADE as a building block, we can modulate the dynamic features conditional on their geographical location. Thus, our approach considers feature properties as a unified yet compound 2D/3D model. Besides, we propose using an absolute temporal encoding for time-related forecasting problems. Our experimental results show a better performance of our approach than other baselines on the challenging FireCube dataset.

translated by 谷歌翻译

Self-supervised Learning for Unintentional Action Prediction

Olga Zatsarynna , Yazan Abu Farha , Juergen Gall

分类：计算机视觉

2022-09-24

区分动作是按预期执行的，还是预期的动作失败是人类不仅具有的重要技能，而且对于在人类环境中运行的智能系统也很重要。但是，由于缺乏带注释的数据，认识到一项行动是无意的还是预期的，是否会失败。尽管可以在互联网中发现无意或失败动作的视频，但高注释成本是学习网络的主要瓶颈。因此，在这项工作中，我们研究了对无意采取行动预测的自学代表学习的问题。虽然先前的作品学习基于本地时间社区的表示形式，但我们表明需要视频的全局上下文来学习三个下游任务的良好表示：无意的动作分类，本地化和预期。在补充材料中，我们表明学习的表示形式也可用于检测视频中的异常情况。

translated by 谷歌翻译

One-Shot Synthesis of Images and Segmentation Masks

Vadim Sushko , Dan Zhang , Juergen Gall , Anna Khoreva

分类：计算机视觉 | 机器学习

2022-09-15

与生成对抗网络（GAN）的图像和分割掩模的联合合成有望减少用像素通过像素注释收集图像数据所需的精力。但是，要学习高保真图像掩码合成，现有的GAN方法首先需要一个需要大量图像数据的预训练阶段，这限制了其在受限图像域中的利用。在这项工作中，我们迈出了一步，以减少此限制，从而引入了单次图像掩码合成的任务。我们旨在仅给出一个单个标记的示例，生成各种图像及其分割面具，并假设与以前的模型相反，则无法访问任何预训练数据。为此，我们受到单图像gan的最新体系结构发展的启发，我们介绍了OSMIS模型，该模型可以合成分割掩模，这些掩模与单次镜头中生成的图像完全一致。除了实现产生的口罩的高保真度外，OSMIS在图像合成质量和多样性中的最先进的单图像模型优于最先进的单位图。此外，尽管没有使用任何其他数据，OSMIS还是表现出令人印象深刻的能力，可以作为一击细分应用程序的有用数据增强的来源，提供了与标准数据增强技术相辅相成的性能提高。代码可从https://github.com/ boschresearch/One-shot-synthesis获得

translated by 谷歌翻译

Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation

Nadine Behrmann , S. Alireza Golestaneh , Zico Kolter , Juergen Gall , Mehdi Noroozi

分类：计算机视觉

2022-09-01

本文在完全和时间戳监督的设置中介绍了通过序列（SEQ2SEQ）翻译序列（SEQ2SEQ）翻译的统一框架。与当前的最新帧级预测方法相反，我们将动作分割视为SEQ2SEQ翻译任务，即将视频帧映射到一系列动作段。我们提出的方法涉及在标准变压器SEQ2SEQ转换模型上进行一系列修改和辅助损失函数，以应对与短输出序列相对的长输入序列，相对较少的视频。我们通过框架损失为编码器合并了一个辅助监督信号，并在隐式持续时间预测中提出了单独的对齐解码器。最后，我们通过提出的约束K-Medoids算法将框架扩展到时间戳监督设置，以生成伪分段。我们提出的框架在完全和时间戳监督的设置上始终如一地表现，在几个数据集上表现优于或竞争的最先进。

translated by 谷歌翻译

HTML版本

Recurrent Transformer Variational Autoencoders for Multi-Action Motion Synthesis

Rania Briq , Chuhang Zou , Leonid Pishchulin , Chris Broaddus , Juergen Gall

分类：计算机视觉

2022-06-14

我们考虑合成任意长度的多动运动人类运动序列的问题。现有方法已经掌握了单一方案中的运动序列生成，但未能推广到多动和任意长度序列。我们通过提出一种新型有效方法来填补这一空白，该方法利用了经常性变压器的表现力和条件变异自动编码器的生成丰富性。所提出的迭代方法能够在线性空间和时间进行任意数量的动作和帧中生成平滑而逼真的人类运动序列。我们训练并评估使用基本操作标签增强的Prox数据集的建议方法。实验评估表明，与最先进的情况相比，FID得分和语义一致性指标的显着改善。

translated by 谷歌翻译

ATS: Adaptive Token Sampling For Efficient Vision Transformers

Mohsen Fayyaz , Soroush Abbasi Kouhpayegani , Farnoush Rezaei Jafari , Eric Sommerlade , Hamid Reza Vaezi Joze , Hamed Pirsiavash , Juergen Gall

分类：计算机视觉

2021-11-30

虽然最先进的视觉变压器模型实现了图像分类的有希望的结果，但它们是非常昂贵的并且需要许多GFLOPS。尽管可以通过减少网络中的令牌数量来降低视觉变压器的GFLOPS，但是没有对所有输入图像的最佳设置。因此，在这项工作中，我们引入了可分辨率的无参数自适应令牌采样（ATS）模块，可以插入任何现有的视觉变压器架构。通过评分和自适应采样重要令牌，在视觉变压器上实现视觉变压器。结果，令牌的数量不再静态，但是每个输入图像都变化。通过将ATS集成为当前变压器块内的附加层，我们可以将它们转换为具有自适应令牌的更高效的视觉变压器。由于ATS是一种无参数模块，因此它可以作为即插即用模块添加到从货架上的预制视觉变压器中，从而在没有任何额外训练的情况下减少他们的GFLOP。但是，由于其可分辨动的设计，人们还可以培训配有ATS的视觉变压器。通过将其添加到多个最先进的视觉变压器，我们在想象成数据集上进行评估。我们的评估表明，通过将计算成本（GFLOPS）降低37％，在保留准确性时，该模块通过降低了37％，提高了最先进的模块。

translated by 谷歌翻译

Keypoint Message Passing for Video-based Person Re-Identification

Di Chen , Andreas Doering , Shanshan Zhang , Jian Yang , Juergen Gall , Bernt Schiele

分类：计算机视觉

2021-11-16

基于视频的人重新识别（RE-ID）是视觉监控系统中的重要技术，旨在匹配由不同摄像机捕获的人们的视频片段。现有方法主要基于卷积神经网络（CNN），其构建块一次处理局部邻居像素，或者当3D卷绕用于建模时间信息时，遭受由人移动引起的未对准问题。在本文中，我们建议克服具有以人为本的图表方法的正常卷曲的局限性。具体地，提取位于人关节键点的特征并将其作为空间时间图连接。然后通过使用图形卷积网络（GCN）从连接节点传递的消息更新这些关键点特征。在培训期间，GCN可以附加到任何基于CNN的人RE-ID模型，以协助在特征映射上进行表示学习，同时可以在培训后丢弃以获得更好的推广速度。我们的方法通过生成的人关键点和新注释的数据集：posetrackreid，对火星数据集的基于CNN的基线模型进行了重大改进。它还在与现有作品相比，在前1个精度和平均平均精度方面定义了新的最先进的方法。

translated by 谷歌翻译

Multi-scale Interaction for Real-time LiDAR Data Segmentation on an Embedded Platform

Shijie Li , Xieyuanli Chen , Yun Liu , Dengxin Dai , Cyrill Stachniss , Juergen Gall

分类：计算机视觉

2020-08-20

LIDAR数据的实时语义分割对于自动驾驶车辆至关重要，这通常配备有嵌入式平台并具有有限的计算资源。直接在点云上运行的方法使用复杂的空间聚合操作，这非常昂贵，难以优化嵌入式平台。因此，它们不适用于嵌入式系统的实时应用。作为替代方案，基于投影的方法更有效并且可以在嵌入式平台上运行。然而，目前基于最先进的投影的方法不会达到与基于点的方法相同的准确性并使用数百万个参数。因此，我们提出了一种基于投影的方法，称为多尺度交互网络（Minet），这是非常有效和准确的。该网络使用具有不同尺度的多个路径并余额尺度之间的计算资源。尺度之间的额外密集相互作用避免了冗余计算并使网络高效。在准确度，参数数量和运行时，所提出的网络以基于点为基础的基于图像和基于投影的方法。此外，网络处理在嵌入式平台上每秒超过24个扫描，该嵌入式平台高于激光雷达传感器的帧。因此，网络适用于自动车辆。

translated by 谷歌翻译

Rethinking 3D LiDAR Point Cloud Segmentation

Shijie Li , Yun Liu , Juergen Gall

分类：计算机视觉

2020-08-10

许多基于点的语义分割方法是为室内场景设计的，但如果它们被应用于户外环境中的LIDAR传感器捕获的点云，则他们挣扎。为了使这些方法更有效和坚固，使得它们可以处理LIDAR数据，我们介绍了重新建立基于3D点的操作的一般概念，使得它们可以在投影空间中运行。虽然我们通过三个基于点的方法显示了重新计算的版本速度快300到400倍，但实现了更高的准确性，但我们还证明了重新制定基于3D点的操作的概念允许设计统一益处的新架构基于点和基于图像的方法。作为示例，我们介绍一种网络，该网络将基于重新的3D点的操作集成到2D编码器 - 解码器架构中，该架构融合来自不同2D尺度的信息。我们评估了四个具有挑战性的语义LIDAR点云分割的方法，并显示利用基于2D图像的操作的重新推出的基于3D点的操作实现了所有四个数据集的非常好的结果。

translated by 谷歌翻译

SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences

Jens Behley , Martin Garbade , Andres Milioto , Jan Quenzel , Sven Behnke , Cyrill Stachniss , Juergen Gall

分类：

2019-04-02

Our dataset provides dense annotations for each scan of all sequences from the KITTI Odometry Benchmark [19]. Here, we show multiple scans aggregated using pose information estimated by a SLAM approach.

translated by 谷歌翻译